155 1561-5359. Штучний інтелект, 2016, Х» 1 


УДК 004.89:004.93 


М.С. Клименко, Ф.В. Фомін 
Інститут проблем штучного інтелекту МОН України і НАН України 
пр. Академіка Глушкова, 40, м. Київ, Україна, 03680 


РОЗРОБКА СТРУКТУРИ СИСТЕМИ РОЗПІЗНАВАННЯ 
ЕМОЦІЙНОГО СТАНУ ДИКТОРА 


М... Кіутепко, БЕ. У. Котіп 
Га5йіиіе ої агійста! тіеШоепсе ргобіетз ої МЕЗ апа ХАЗ5 ої ОКтаїпе 
40, Асадетісіап СТиз5ЬКоу аумепие, Сіїу ої Кугу, ОЖгаїпе 03680 


ОКУЕГОРМЕХТ ТНЕ 5У5ТЕМ 5ТКОСТОВЕ КОВ 
ІОЕХТІКІСАТІОХ 5РЕАКЕК ЕМОТІОХАЇІ, СОХРІТІОМ 


У шстатті розглянуто сучасні підходи до автоматизованого розпізнавання ємоцій і певних 
психологічних станів людини за її голосом. Запропоновано структуру системи ідентифікації емоцій, 
що використовує попередню обробку аудіо сигналу (шумозниження та сегментацію за учасниками), а 
також множини акустичних, просодичних та екстралінгвістичних характеристик мовлення для 
створення юзнакового опису. Результати численнних досліджень вказують на необхідність 
застосування даних характеристик. 
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Вступ 


Автоматизоване розпізнавання емоційних станів на сьогодні є невирішеною 
проблемою. Водночас, застосування робастних методів ідентифікації емоційних станів 
дозволить зробити крок уперед у розробці людино-машинних інтерфейсів і систем 
контролю безпеки, що аналізують комплекс характеристик людської поведінки. 
Складнощі виникають внаслідок того, що людські емоції зазвичай зовні слабо виражені й 
швидко змінюються. Прояв емоцій людини може бути зафіксований зняттям показів 
датчиків фізичного стану (тиску, температури поверхні тіла та органів, електромагнітної 
активності мозку), але переважна більшість таких характеристик можуть бути отримані у 
безпосередньому контакті з мтлюдиною, що робить неможливим застосування 
характеристик на практиці. Віддалене розпізнавання можливо виконати візуально (рухи, 
міміка) та аудіально (за змінами у голосі). 

Метою даного дослідження є розробка структури системи, здатної розпізнавати 
наявність певної емоції (із визначеної множини) у людини За її голосом. Застосування 
такої системи може бути використане у контролі за психічним станом пацієнтів під час 
діагностики або реабілітації. Аудіосигнал до системи може надходити із суттєвим рівнем 
шуму побутового характеру (акустичні викривлення приміщення, фоновий шум приладів, 
голоси співрозмовників). Ці обставини ускладнюють розробку системи, оскільки постає 
необхідність майже безперервного моніторингу проявів емоцій для негайного втручання 
спеціаліста або подальшого аналізу поведінки, але цим вони відрізняють її від існуючих 
наразі систем розпізнавання емоцій. 
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Сучасні підходи до розпізнавання емоційного стану за голосом 


Типова схема розпізнавання емоцій може бути розділена на три етапи (вона 
представлена на рисунку 1). Після виокремлення фрагментів аудіосигналу із голосом 
виконується формування вектору ознак для подальшого порівняння з еталонними 
значеннями. 

Для розпізнавання окремих емоцій краще за інші себе зарекомендували 
просодичні характеристики та їх комбінації (1, 2|. Якість розпізнавання тут повністю 
залежить від точності методів просодичного аналізу, автоматизувати які можливо 
тільки для о конкретної мови або групи мов. Найкращою реалізацією 
автоматизованого розпізнавання емоцій за просодичними характеристиками є 
комп'ютерний детектор емоцій за голосом УМоісе-5іге55 Апаїузі5, який розпізнає 
стресовий стан із ймовірністю 9690. Система є закритою й знаходить застосування в 
державних і правоохоронних органах США. До просодичних характеристик 
емоційних станів включають інтонаційний рисунок речень, інтенсивність мовлення, 
висоту та силу голосу (середню або ключових фрагментів речень). 

У ряді робіт пропонуються характеристики мовлення диктора інших груп: 
акустичні Й екстралінгвістичні |3, 4). Ці характеристики мають менший спектр 
характеристик та нижчу робастність, але дозволяють робити оцінку зі значно 
меншим об'ємом обчислень. До акустичних характеристик емоційних станів 
відношення формант у голосних звуках, тривалість вимови фонем та пауз. 
Екстралінгвістичними ознаками є наявність специфічних подій, таких як зітхання, 
плач, сміх, кашель та ін. Такі ознаки дуже чітко характеризують певні множини 
емоцій, але наявність цих ознак не є обов'язковою, тому вони виступають 
допоміжними характеристиками. 


Попередня обробка Обчислення 
(виокремлення характеристик 
мовлення) прояву емоцій 


Аудіосигнал 


Класифікатор емоцій 
(прийняття рішення) База моделей 
дикторів або ознак емоцій 


Результат 
розпізнавання 


Рис. 1. Узагальнена типова схема розпізнавання емоцій за голосом 


Завершальним етапом розпізнавання є класифікація отриманого вектору ознак 
із наявними еталонними значеннями для кожного диктора через високу 
варіативність ознак прояву емоцій. База еталонів може зберігати різні види 
інформації. 

1. Характеристики голосу диктора у стані спокою. У цьому випадку тестовий 
вектор ознак порівнюється із еталонним для обраного диктора 1, в разі відхилення, 
що перевищує поріг, робиться висновок про наявність певного емоційного прояву. 
Очевидно, що ймовірність правильно класифікувати прояви декількох емоцій низька 
через брак інформації про їх характеристики. Але таким чином зручно виконувати 
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перевірку знаходження диктора у стані підвищеної нервової напруженості |З. 

2. Характеристики голосу диктора у різних емоційних станах. За такої 
інформації класифікатору достатньо почергово порівняти тестовий вектор ознак із 
усіма еталонними. У разі їх достатньої близькості, у просторі ознак робиться 
висновок про наявність певної емоції у диктора. Таким чином досягається найбільша 
точність розпізнавання. Недоліком такого підходу є необхідність створювати 
множину моделей для кожної емоції диктора, яку потрібно розпізнавати, у той час, 
коли для навчання системи може не існувати запису голосу диктора у необхідному 
емоційному стані. 

3. Загальні характеристики різних емоційних станів. Індивідуальні 
характеристики диктора не зберігаються зовсім через узагальненість еталонних 
моделей, які створюються при навчанні системи на великій вибірці дикторів. У 
цьому випадку рішення про наявність певної емоції у диктора приймається, коли 
тестовий вектор ознак близький до відповідного еталонного вектору ознак емоції. 
Системою зберігається найменший обсяг інформації, що відображається на якості 
роботи даного підходу: через варіативність індивідуальних проявів емоцій 
узагальнені вектори ознак втрачають свої якості, наближаючись один до одного і 
збільшуючи помилку хибної ідентифікації. 

Як класифікатор для даної задачі застосовується метод, який кращим чином може 
створити вирішальне правило на обраній множині характеристик. Так, для просодичних 
характеристик, де є дані різної структури (графіки, числові послідовності), застосовують 
нейромережі, приховані марківські моделі. Для більш одноманітних векторів ознак, 
акустичних (спектральних) та екстралінгвістичних, можливе використання простіших 
методів лінійного квантування, сумішей Гауса і т.п. 

Сучасні розробники уникають розпізнавання окремих емоцій, фокусуючись на 
детекції простіших психологічних станів (афекту, стресу, тонусу), які включають у 
себе прояв одразу низки емоцій. У даній статті пропонується розпізнавання базових 
емоцій із можливістю подальшого розширення їхнього переліку. 


Постановка задачі 


Виходячи з мети даної роботи, поставлені наступні задачі: 
1. На основі існуючих досліджень відібрати перелік акустичних ознак, що 
дозволяють охарактеризувати якомога більшу кількість емоцій людини. 
2. Скласти перелік основних емоцій для розробки системи та чисельних досліджень. 
3. Розробити структуру системи, що здатна розпізнавати емоції диктора з обраної 
множини по аудіосигналах, записаних у побутових умовах. 
4. Дослідити внесок акустичних ознак у розпізнавання емоцій. 


Опис системи розпізнавання 


Існує чимало класифікацій людських емоцій, не будемо зупинятись на 
конкретних, що налічують від 20 і більше найменувань через складність 
розпізнавання за голосом схожих проявів різних емоцій. Прийнято виділяти базові 
емоції, яких є декілька класифікацій, наприклад, загальновідомою є класифікація 
К.Ізарда з 11 станів |6|. У даній роботі ця множина звужена до 5 базових емоцій, які 
частіше за все обираються у гештальт-психології і мають більшу, відносно інших 
емоцій, амплітуду зміни поведінки як за голосом, так 1 невербальними проявами |7|. 
Отже, розроблювана система повинна розпізнавати наступні емоції: радість, інтерес, 
страх, сум, злість. 
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Структура системи розпізнавання емоцій, згідно з постановкою задачі, 
представлена на рисунку 2 1 різниться від типової появою додаткових етапів 
попередньої обробки, а також баз даних ідентифікаційних моделей дикторів та 
емоційних станів. 


Сегментація на учасників 


Шумозниження аудіозапису База ідентифікаційних 
(обчислення ідентифікаційних моделей дикторів 
характеристик, класифікація) 


Обчислення характеристик 
прояву емоцій 
Класифікатор емоцій 
(прийняття рішення) 


Результат розпізнавання 


Аудіосигнал 


База емоційних 
моделей дикторів 


База емоційних 
станів 


Рис. 2. Структурна схема системи розпізнавання емоцій диктора 
за характеристиками голосу 


Шумозниження. У кожному звуковому фрагменті виконується розпізнавання 
наявності та зменшення амплітуди адитивних стаціонарних шумів за допомогою 
спектрального віднімання смуг, у яких не фіксується людський голос. 

У(/а)- п Р 12423 -| хо), 
ХО0 

де - частота сигналу, 

Ї -- початок відрізку сигналу за часом або відліками, 
Хі) - амплітудний спектр сигналу, 

ИУ(0) - амплітудний спектр шуму, 

У(0 - амплітудний спектр очищеного сигналу, 

Кк - коефіцієнт зниження шуму. 

Сегментація на учасників. Для виконання цієї операції в даній роботі 
використана підсистема ідентифікації дикторів із доробку авторів |35|, яка сегментує 
увесь сигнал як на відрізки, що належать одному із учасників сигналу, так і на 
відрізки з пауз (тобто фонового | шуму). Слід зауважити, що більшість 
екстралінгвістичних характеристик на цьому етапі будуть віднесені до пауз без 
розпізнавання належності до учасника розмови. Оскільки метод ідентифікації 
диктора використовує моделі ознак за окремими широкими фонетичними класами 
(множинами споріднених за акустичними характеристиками фонем), то в результаті 
цього етапу отримуємо одночасно ще одну сегментацію - на фонетичні класи, 
інформація про які використовується при обчисленні акустичних характеристик. 

ев СХ.) з СХ), 5РОХ ,), МОХ, 9) 
де Х; - відрізок сигналу, отриманого на етапі шумозниження, 
ЕХ), Ур(Х), МХ) - перелік відрізків окремих фонем. 

Сегментація на учасників є текстонезалежною, тобто вона не враховує повну 
інформацію мовлення, а лише дані про фонеми. Це не дає змогу отримати ряд 
просодичних характеристик без залучення додаткових методів, тому, наразі, 
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розмітка на речення та смислові конструкції виконується оператором. 

На етапі обчислення характеристик прояву емоцій за наборами відрізків цільового 
диктора отримуються вектори ознак, які будуть класифіковані на наступному етапі. 
Перед формуванням вектора ознак емоцій та способу їх обчислення необхідно обрати 
множину емоцій, під які буде налаштована система. Простір ознак для даних емоцій 
сформовано із 7 акустичних, просодичних та екстралінгвістичних характеристик. Згідно з 
порівняльним аналізом досліджень |б, 7| зміни вербальних характеристик для певних 
емоційних станів наведено у таблиці 1. Таким чином створено простір ознак, у якому 
можливо виокремити особливості прояву емоцій за голосом. Відсоткові значення 
відхилень були отримані усередненням персональних вимірів за тестовою множиною 
дикторів при навчанні системи. 


Таблиця 1. Порівняльний аналіз зміни вербальних характеристик для певних 
емоційних станів людини відносно спокійного стану 


Характерис- Емоції 
тики Радість Інтерес Страх Сум Злість 
Значно . Значно Понижена 
Висота голосу, Е Підвищена 5 ор 
їй підвищена (від 796) підвищена (8906 Й 
(від 1190) (від 1390) нижче) 
сані З Підвищена Підвищена се Підвищена 
; від 160 ід 79 ри ід 99 
(від 169) (від 790) нижче) (від 997) 
Збільшення 
й й - відстані між меншен- 5 
Відстань між Збільшення во ЕЗ Зменшення и коню Збільшення 
формантами у відстані між поббайно відстані між ана відстані між 
голосних звуках, | К2 та ЕЗ длязнуюів Е2 та ЕЗ Р2 Е2 та ЕЗ 
Г; на 5-89 -69 й нижч Й від 59 
ц (на 5-89) ГО, А) (696 е) (від -496) (від 590) 
(до 692) 
Т - 
НО Прискорена | Прискорена 
вимови складів, о рн 
(від 690) (від 99) 
ме 
Тривалість пауз, Подовжена | Зменшена 
ме (від 59) (від -69/) 
Наявність ; - її Можливі Можливі 
й Можливі Можливі Можливий . 
кашлю, зітхань, й У зітхання, кашель, 
і сміх, плач зітхання плач 
плачу, сміху плач плач 
Зміна інтонації відне 
; . Підвищення . і і 
питай |ечаніо з лонрюнння Предьайо 0 няня | |рононаюою 
б о 4 початку У 


Для отримання акустичних характеристик дикторів використані згладжені 
спектри широких фонетичних класів, за якими легко розрахувати висоту голосу 
(основний тон), силу голосу та відстань між формантами у голосних звуках. 
Характеристики тривалості вимови складів та пауз між словами обчислюються 
усереднено по реченню, а зміна інтонації у реченні є динамічною просодичною 
характеристикою. Для спрощення задачі класифікації інтонаційних особливостей 
різних мов, часова характеристика інтонації (висота тону) сегментується на наступні 
ділянки для кожного речення: 

-. підвищення тону до кінця речення; 
-. підвищення тону на початку речення; 
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-. спад тону усередині речення; 
-. підвищення тону усередині речення. 

Уточнення кривої висоти тону та порівняння інтонаційних векторів тільки 
ускладнює вектор ознак і робить моделі дикторів сильно залежними від 
особливостей мови або діалекту. 

Екстралінгвістичними характеристиками є наявність у фрагментах пауз (шуму) 
однієї з акустичних подій, притаманних обраним емоціям: кашлю, зітхань, плачу, 
сміху. Для автоматизації пошуку даних подій у блоку сегментації до моделі 
загального шуму були створені додаткові моделі екстралінгвістичних подій. Однак, 
складність створення універсальних моделей у цьому випадку наразі змушує 
використовувати ручну розмітку, а неможливість системи ідентифікувати диктора 
вирішується припущенням щодо його належності учаснику розмови, фрагмент 
мовлення якого знаходиться найближче за часом до даного фрагменту. 

На етапі прийняття рішення використовується сформований на попередньому 
етапі набір векторів ознак, який оцінюється одним із двох вирішальних правил: 


7 
ІС», 5р,е)- Уа, СС, ВВ, 5р,), а) 
ізі 
де /у - набір векторів ознак тестового сигналу, 
У5р - модель диктора (значення 7 характеристик голосу у стані спокою), 
ОВ, - модель еталонної емоції, 
е - номер еталонної емоції із переліку обраних до розпізнавання, 
С, - простий класифікатор за і-ю характеристикою, 
аї - ваговий коефіцієнт. 
або 
к2С,5р)- аге, плах (КІ(У», 5», е))2 р, (2) 
езі..5 


де р - порогове значення. 


Простим класифікатором С(/уУ,)В,,5р,) у даному підході виступає метод 


сумішей Гауса, який виконує оцінку приналежності набору векторів ознак /у до 
еталонної моделі ДВ, моделі диктора 5р. Вирішальне правило (1) базується на методі 
ЛааВоозі, використаного раніше у системі ідентифікації диктора |5|, і здійснює 
зважування внесків простих класифікаторів для мінімізації похибки розпізнавання. 
Значення, що отримуються вирішальним правилом (1), показують відповідність 
тестової вибірки емоції з номером е моделі диктора 5р. Значення на виході бінарного 
класифікатора за методом  АааВоозі, наближаються до нуля за відсутності 
впевненості у результаті розпізнавання. В інших випадках К/ може дорівнювати 
максимальному значенню приналежності тестової вибірки до еталонних моделей. 
Модель емоції ДВ, складається із 3 обмежувальних параметрів за кожною із 
характеристик голосу: 
-. тип обмеження (немає, зверху, знизу, діапазон); 
-. значення обмеження (число або 2 числа діапазону); 
- абсолютна (в одиницях виміру характеристики за таблицею І) чи 
відносна (у відсотках) шкала. 
Вирішальне правило (1) використовується для визначення прояву емоції у 
аудіофрагменті. Натомість вирішальне правило (2) за пороговим значенням 
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визначає, яка з емоцій була проявлена. 

У структуру було додано базу даних емоційних моделей дикторів. Вона 
різниться від аналогічної бази для сегментації по учасниках розмови низкою ознак. 
По-перше, вектор ознак для сегментації формується із мел-честотних кепстральних 
коефіцієнтів, що є стійкими до низки емоційних проявів, а отже, не є 
інформативними у даній задачі. Для бази емоційних моделей використано набір 
вище зазначених характеристик, які отримані з аудіофрагменту мовлення диктора у 
спокійному стані (тобто без прояву емоцій, що підлягають розпізнаванню). Емоційна 
модель диктора 5р представляє собою дані суміші Гауса, отримані за 7 
характеристиками голосу. 

Відсутність необхідності швидкого пошуку по базі емоційних станів (диктор 
вже відомий із попереднього етапу) спрощує реалізацію. У базі сегментації для 
цього створено ієрархічну пошукову структуру, де схожі за ознаками моделі 
дикторів згруповані між собою. Окрім того, пошук по базі емоційних станів взагалі 
не використовується, вона наразі є реферативною, а додаткова інформація, яку вона 
містить, може додатково використовуватись при сегментації учасників розмови, 
оскільки сукупність характеристик містить індивідуальні особливості дикторів. 

База емоційних станів представляє собою набір дикторонезалежних записів 
щодо діапазону відхилень узагальненого вектору ознак за прояв певної емоції від 
узагальненого вектору ознак стану спокою. Саме поєднання цієї інформації із 
даними про особливості голосу диктора дає змогу встановити індивідуальний 
діапазон зміни вектору ознак. Інформація по діапазонах характеристик зберігається у 
відносному вигляді. 

Для чисельного дослідження ефективності використання запропонованої 
структури системи із використанням додаткових емоційних моделей брали участь 10 
дикторів з різними голосовими даними (5 жінок 1 5 чоловіків віком від 14 до 68 
років, т-34, 5-11). Для побудови моделей були записані фрагменти емоційно 
забарвленої мови дикторів загальною середньою тривалістю | хвилина. Запис 
здійснювався динамічним мікрофоном у приміщенні зі слабкими сторонніми 
шумами (рівень шуму 254В) з частотою дискретизації 44, кГц і глибиною 
квантування 16 біт. 

Для проведення порівняльного аналізу був реалізований метод |З3| із 
використанням бустінг-алгоритму АдаВоо5бі, що дозволило зробити порівняльний 
аналіз внеску характеристик у розпізнавання емоцій за різної довжини тестового 
аудіофрагменту, наведений на рисунку 3. По вертикальній осі наведено значення 
нормованих бустінг-коефіцієнтів, отриманих після навчання на тестових зразках. 

Із діаграми видно, що за навчання на короткочасних фрагментах внески 
характеристик виявляються приблизно рівними. А за наявності великої кількості 
інформації найвагомішими стають показники міжформантних відстаней та 
інтонаційного малюнку, трохи менш вагомими є висота голосу та екстралінгвістичні 
події. Інші характеристики носять другорядний характер. 

Що стосується ймовірності розпізнавання, то на моделях, побудованих на 
вимові одного речення (до 15 секунд), вона дорівнює в середньому 6490 -- 3,196 (р с 
0,05), при збільшені об'єму навчальної інформації зростає до 7790 - 3,690 (р « 0,05),а 
за 60-секундних навчальних зразків дорівнює 8295 -- 2,790 (р « 0,05). 
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Висота голосу  Силаголосу 0 Відстаньміж Тривалість тривалість Наявність | Зміна інтонації 
формантами у вимови пауз кашлю, зітхань,  уреченні 
голосних складів плачу, сміху 
звуках 


Речення ІВ ЗОс мовлення бОс мовлення 


Рис. 3. Порівняльна діаграма внеску характеристик у розпізнавання емоцій за 
різної довжини тестового аудіофрагменту 


Висновки 


У даній статті виконано огляд сучасних підходів до розпізнавання емоцій за 
голосом, розроблено структуру системи такого розпізнавання, В якій 
використовуються моделі емоцій та дикторів. Аналіз отриманих результатів 
дозволив зробити наступні висновки. 

1. Існуючі методи розпізнавання емоцій за голосом у високій мірі чутливі до 
якості передачі мовленнєвого сигналу та не мають змоги пристосовуватись до 
особливостей вимови диктора. 

2. Для чисельних досліджень обрано 5 базових емоцій, які мають більшу 
відносно інших амплітуду зміни поведінки вербальної активності. Для їх векторного 
опису відібрано множину із 7 акустичних, просодичних та екстралінгвістичних 
характеристик, що дозволяють розширити простір ознак, у якому можна виокремити 
особливості прояву емоцій за голосом. 

3. Запропоновано підхід до проектування системи розпізнавання емоцій за 
голосом, який використовує блоки шумозниження, сегментації на учасників розмови 
та паузи як попередню обробку. Це дозволило отримати додаткову інформацію щодо 
пофонемної розмітки, яка використовується з при обчисленні акустичних 
характеристик. Крім того, запропоновано зберігання окремих емоційних моделей 
дикторів та узагальнених моделей емоцій для можливості пристосування до диктора. 

4. Проведено чисельне дослідження якості автоматичного розпізнавання та 
класифікації за усією множиною характеристик. Середня ймовірність розпізнавання 
емоцій за навчання моделей на 60-секундних фрагментах 10 дикторів сягає 5290. Також, 
досліджено внесок окремих характеристик у вирішальне правило, який показав, що 
найвагомішими є показники міжформантних відстаней та інтонаційного рисунку. 

5. Складність для класифікації представляють ділянки, що містять 
екстралінгвістичні фрагменти (через неможливість системи ідентифікувати диктора таких 
голосових дій) та просодичні характеристики (через ручну розмітку аудіоматеріалу). 
Вирішення цих проблем може стати подальшим розвитком даної роботи. 
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Рреуеіортепі Ше 5у5кепі 5(гиСсіиге Гог ідепіійсакоп етобіопа! зреаКкег сопдійоп 


Модегп арргоаспез іо айіотаїеа гесоєпійоп ої ептойоп5 апа рз5усПпоїобіса! 
сопдаїноп5 Бу уоісе аге дебстібед їп ре агіїсіе. ТПе зіарез ої їурісаї етойоп гесоєпійоп 
зубіет аге дезстібед. Пі аЙомиз ко еуаїаке Ше сштепі 5аїе ої 50Іуїпе, Ше ргобіет. Тре 
агіїсіе 5ром8 Ве діНегепі їурез ої паїогттайоп Гог плодеШте ригробез апа апаїузіз ої Бе 
адуапіаєєз апа йзадуатіаєєз ої сасі їуре. 

Тре ргоровбед 5ігисіиге ої етойоп ідепіїйсайоп зузіет п5ез а ргергосез58іпе апдїо 
зієпа 5каєє (Ії іпсіидеє поїзе гедисіїоп апа 5еєтепіайоп Бу рагіїсірапіз) апд а 5еї ої 
асоцяйїс, ргоз5одіс апа ехітайпеціяйс Кеаїигез ої зреесії о сгеаїе Геаїиге уесіог. Рагабазе 
ої етобопа! 5їаіе5 15 а зреаКкег-іпферепдепі 5еї ої гесога5 оп а гапое ої Феміайоп8 
Бебуееп репегайяеай ТГеагите уесіог ої сегіаїп етлойопя апа бе сепегайоей Гсаїиге уесіог 
а: погтаї сопдїйоп. Га5кеад, зреакег даїабазе Кеер5 іпдїуїдца! сПагасіегізйїс5 ої 
ргопипсіайоп. Согабіпіпє (рі5 іпбогпайоп уу/ії Фаїа оп (ре бепега! срагасіегізїїся ої 
епойоп Ісі8 п5 5еб іпФфуїдца! гапее ої Геаїиге уесіог уагіайоп. 

Тре гезиіїв питегіс гезеагспеє ої Фе 5 Базіс етойоп5 5похуед бе ПпКкеПйпооа ої 
ашотайс гесобпійоп ої етобопа! 58каге8 аї 8290. Те срагасіегізіся ої Рогтапі дї5іапсез 
апа іпіопайоп бєиге ц5ед о сопітібие то5і іо їбе Фесіз8іоп гие атопе аї! срагастегі8іїся. 
Іс роїпів о їБе песез85ігу Бог Фре5е срагастегіз5йся 0 ц5е їорефег. 
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Уреакег ідепіїйсайноп оп аєтепіє ої ехігайпеціяїїс еуепіз апа ашіотайоп ої 
ргозодіс Реакигеє согарийпя тау іпсгеа5е їбе ПпКенПпооа ої епойопа! 58їаїе5 гесоєпійоп 
апа бесоте а Тигірег дДеуеЇортепі ої їБі8 5у5кет. 


М.С. Клименко, Ф.В. Фомін 
Розробка структури системи розпізнавання емоційного стану людини 


У статті розглянуто підходи до автоматизованого розпізнавання емоцій та 
певних психологічних станів людини за її голосом. Наведено етапи типової схеми 
розпізнавання емоцій, що дає змогу оцінити сучасний стан вирішення задачі. 
Описано різні типи інформації для формування еталонів розпізнавання із аналізом 
переваг та недоліків кожного типу. 

Запропоновано структуру системи ідентифікації емоцій, що має наступні 
вдосконалення: попередня обробка аудіосигналу (шумозниження та сегментацію за 
учасниками), використання множини акустичних, просодичних та 
екстралінгвістичних характеристик мовлення для створення ознакового опису 
емоційних станів і моделей дикторів. База емоційних станів представляє собою набір 
дикторонезалежних записів щодо діапазону відхилень узагальненого вектору ознак 
при прояві певної емоції від узагальненого вектору ознак у стані спокою. Натомість 
база моделей дикторів зберігає індивідуальні характеристики вимови. Поєднання 
цієї інформації із даними про загальні характеристики емоцій дає змогу встановити 
індивідуальний діапазон зміни вектору ознак. 

Результати чисельних досліджень із 5 базовими емоціями показали ймовірність 
автоматичного розпізнавання емоційних станів на рівні 8296. Показники 
міжформантних відстаней та інтонаційного рисунку серед використаних 
характеристик роблять найбільший внесок у вирішальне правило класифікатора, що 
вказує на необхідність застосування даних характеристик. 

Ідентифікація диктора з на з фрагментах  екстралінгвістичних подій та 
автоматизація обчислення просодичних характеристик може підвищити ймовірність 
розпізнавання емоційних станів і стати подальшим розвитком системи. 

Надійшла до редакції 06.09.2016 


26 О М.С. Клименко, Ф.В. Фомін 


